时政
财经
科技
虚拟货币
其他
登录
#attention sink
关注
AI Dance
5天前
在 transformer 模型里,注意力权重很容易集中到序列开头的几个 token 上,尤其是第一个,这个现象叫做attention sink。之前很多论文的解释是,模型这么做是为了作为锚点。 但这篇文章提出了一个另外的观点:这根本不是模型学会的策略,而是 causal transformer 的数学结构天然就会导致的结果。 因为一旦引入 causal mask,attention 就相当于在一个 有向无环图(DAG) 上传播。信息和梯度都会自然往图的汇点(sink)聚集,而在这种结构下,汇点就是前几个 token。于是 attention mass 就越来越往前集中。
#transformer模型
#注意力权重
#attention sink
#causal mask
#有向无环图
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞